基于 transformer 等模型的新冠疫苗情感极性分析：

摘要

　　AI 科技评论报道作者 | 罗杰波团队编辑 | 陈大鑫中美民众分别是如何看待新冠疫苗的呢？这是一个需要我们认真研究的问题。当今开发新冠疫苗，并在全球范围内使用疫苗，成为了

AI 科技评论报道

作者 | 罗杰波团队

编辑 | 陈大鑫

中美民众分别是如何看待新冠疫苗的呢？

这是一个需要我们认真研究的问题。

当今开发新冠疫苗，并在全球范围内使用疫苗，成为了终结此次疫情的优先选项。然而当全世界科学家及医学专家都在开发和测试新冠疫苗的同时，美国民众对于是否接种疫苗产生了不同的意见。根据皮尤研究中心最近的一次调研[1]，2020年5月，71%受调研的美国民众认为如果有疫苗，他们将一定或可能进行接种。然而这一比例在2020年9月骤降至51%。该调研指出，美国民众担忧的是疫苗的安全、有效性，以及疫苗的批准使用进程是否合规。

疫情如此严重，美国民众对疫苗的接受度反而出现这种反复，不由得让人想知道个究竟。同样的，中国民众是如何看待新冠疫苗的，也成为了我们关心的问题。

美国罗切斯特大学罗杰波教授团队进行了两项基于社交媒体的相关研究：

（1）基于超过一万名推特用户在2020年9-11月期间发布的对于疫苗态度的相关推特，使用人机耦合机器学习框架，捕捉美国民众对于新冠疫苗的态度；

（2）基于超过五万名微博用户在2020年1月底到11月初期间发布的与新冠疫苗相关的14余万条微博，使用机器学习框架对中国民众的情感倾向进行了统计归纳，并且根据相应的用户组和不同话题进行分类，探讨在不同子集上的情感倾向。

美国民众如何看待新冠疫苗

以美国民众为研究对象，团队发现，对疫苗持不同态度的人群比例变化大致与疫情相关事件相对应，并且美国东南地区对疫苗的接受度相对较低。为了研究美国民众态度的范围和起因，本文使用多类别逻辑回归，比较了支持、犹豫、反对这三组人的性别、年龄、社会资本、收入、宗教、政治倾向、地理位置、与疫情相关及不相关经历的情感、以及官方统计到的郡层面疫情严重程度，并发现了显著的区别。平均上于社会经济状况处于劣势的人群更容易持有极化意见（支持或反对）。

对与疫情相关经历持有最负面情感的人群，往往更可能对疫苗持反对意见。使用虚拟反事实分析，本文发现美国民众在谈及潜在疫苗时，最关注的是安全、有效性已经政治因素。另外，改善民众与疫情相关的经历有利于提高对疫苗的接受度。本文在社交网络层面，对美国民众对于新冠疫苗的态度研究，有助于未来制定更为有效的疫苗接种政策与方案。

本文利用基于transformer的自然语言处理模型，使用人机耦合机器学习框架，捕捉人们对于新冠疫苗的态度，并将其分为三组：支持疫苗、犹豫、反对疫苗。提出三项假设：

假设一：这三组人的性别、年龄、社会资本、收入、宗教、政治倾向、地理位置有差异。

假设二：个人与疫情相关的经历对其形成何种态度有影响。

假设三：郡层面疫情严重程度对其形成何种态度有影响。

人机耦合机器学习框架

简单地说，本文先通过标注一部分推特所呈现出的对疫苗态度，然后将其作为训练集，训练基于transformer的自然语言处理模型，并将其用于推断剩下推特所表现的对疫苗态度。

然而，不同于以往的研究，本文收集的推特中，绝大多数都与表达对疫苗态度无关。由于本研究真正关心的是那些对疫苗表达态度的推特，所以找出这些有关推特是首先要面对的问题。同时，在训练时样本不均衡，将会不仅使人为标注的过程变慢，也会抑制训练出的分类器的表现。为解决这一问题，本文使用了人机耦合机器学习框架。

本文先从 244,049 条推特中随机抽样2,000条不同的推特。三名研究者独立地阅读推特，并判断该条推特是与表达态度不相关、支持疫苗、犹豫、反对疫苗四类中的哪一类。该条推特的类别将由三名研究者的投票结果产生。如果三人的标注的类别均不相同，那么将由三位研究者讨论，给出最终结果。

这 2,000 条标注好的推特作为训练集C_train，用 XLNet 模型训练，输出为四分类，记该四分类模型为H_1。模型的表现将由另外再标注的400条推特验证集D_validation进行验证。由于样本的不均衡（绝大多数为与表达态度不相关的推特，占比84%），本文通过再训练一个二分类模型来主动寻找与表达态度相关的推特。具体来说，本文将2,000条的四分类标签改为二分类，与表达态度不相关的为一类，剩下的支持、犹豫、反对合并为一类。这2,000条用XLNet模型训练，输出为二分类，记该二分类模型为H_2。用于训练H_1和H_2的训练集除了标签分别为四分类和二分类以外没有区别。

训练完的H_2用于在最早的244,049推特集中主动寻找与表达态度相关的推特。具体操作上，本文从244,049推特中随机抽样4,500条推特，使用H_2进行分类，抽取H_2认为最有可能是与表达态度相关的推特的前10%（450条）。再随机从剩下的4,050条抽样50条。这500条推特将由前文提到的三名研究者再度进行四分类标注，加入之前的2,000条，用于扩充训练集C_train。值得注意的是，本文从4,050条中随机抽样50条目的为保证一定的多样性。接下来，本文用2,500条训练集重新训练H_1，并用D_validation进行验证。这一人机耦合过程为一轮，每一轮往C_train中扩充500条推特。

在进行五轮人机耦合标注后，最终训练样本包含4,500条不同的推特。与表达态度相关的推特占比从最早的16%上升至最终的40%。这一人机耦合机器学习框架主动搜索与表达态度相关的推特，以此来均衡样本，从而更有效地标注推特态度及构造模型。

国家及州层面民众态度

美国民众对于疫苗态度的占比变化如图所示，其占比变化和与疫情相关的事件大致对应。总体上，57.65%支持疫苗，19.30%持犹豫态度，剩下的持反对疫苗态度。

美国民众对疫苗态度占比变化

州层面对疫苗态度如下图所示。美国东南地区、俄亥俄州、印第安纳州与肯塔基州对疫苗持有一个相对低的支持态度。

美国各州对疫苗态度，括号中为该州样本数量

本文还发现，内华达州、田纳西州以及华盛顿州支持疫苗的人群占比变化曲线与国家平均偏离最多。华盛顿州在9-11月期间，支持疫苗的人群占比普遍比国家平均高，而内华达州支持疫苗人群占比普遍比国家平均低。田纳西州支持疫苗人群占比变化较大。

美国平均、内华达、田纳西、华盛顿州支持疫苗人数占比

女性更可能持犹豫态度。比较犹豫和反对疫苗的人群，本文发现，女性更有可能对疫苗持犹豫态度。比较犹豫和支持疫苗的人群，本文发现，女性更有可能对疫苗持犹豫态度。

年龄越大，越支持疫苗。比较犹豫和反对疫苗的人群，本文没有发现统计意义上年龄的显著不同。然而在比较犹豫和支持疫苗的人群时，本文发现年龄越大的人，越有可能支持疫苗。这一发现与 Lazarus et al. (2020)的发现一致。可能的解释是，年龄大的人群感染新冠病毒后死亡风险更高，避免感染新冠病毒的益处大于接种疫苗带来的风险。

使用推特模式不同的人群，态度亦不同。拥有更多粉丝或更少好友或点更多赞的推特用户更可能持极化态度（支持或反对）。

参与的小组更多的推特用户更支持疫苗。发布推特数量更多的用户更可能持反对态度。

收入较低的群体更可能持极化态度。比较犹豫和反对疫苗的人群，本文发现收入越低的群体，对疫苗越反对。另外一篇论文，Lazarus et al. (2020) 发现收入越高的人群越支持疫苗。本文发现收入的影响更细微。

宗教群体更可能持极化态度。比较犹豫和反对疫苗的人群，以及犹豫和支持疫苗的人群后，本文发现宗教群体亦或更反对疫苗、亦或更支持疫苗。这一发现与Larson et al. (2014)一致。

政治倾向不同，对疫苗所持态度不同。比较犹豫和反对疫苗的人群，本文发现关注特朗普的人群更反对疫苗，关注拜登的人群更可能持犹豫态度。比较犹豫和支持疫苗的人群，本文没有发现关注特朗普的人群统计意义的显著不同，然而本文发现关注拜登的人群更可能持犹豫态度。

非城市居民更反对疫苗。虽然所居住地理位置在三组互相比较中，并没有统计意义不同，但本文在比较犹豫和反对疫苗两组人群中发现非城市居民统计意义上更可能反对疫苗。

个人在疫情期间的经历以及所在郡的疫情严重程度对其所持态度有影响。比较犹豫和反对疫苗人群，犹豫和支持疫苗人群中，本文发现，个人对于在疫情期间的经历情感越积极，其对疫苗的态度越正面。比较犹豫和支持疫苗的人群，本文发现，民众所在郡的疫情越严重，民众越有可能持犹豫态度。

以上发现均验证了本文的三项假设。

讨论

通过多类别逻辑回归，本文发现支持、犹豫、反对三组人的人群特征显著不同。女性更容易持犹豫态度。年龄越大，越支持疫苗。社会资本不同的人群，所持态度不同。低收入群体对疫苗的态度更极化。宗教群体对疫苗的态度更计划。政治倾向不同也会导致对疫苗态度的不同。个人与疫情相关的经历和所在地区的疫情严重程度都对其对疫苗所持态度有影响。

通过虚拟反事实分析，本文发现民众对疫苗的态度，与政治，疫苗安全及有效性相关。去除政治因素有助于提高疫苗接受度。去除安全及有效性因素不利于提高疫苗接受度。改善个人对疫情的相关经历有助于提高疫苗接受度。

中国民众如何看待新冠疫苗

以中国民众为研究对象，团队发现，微博的情感变化与疫苗研发过程中的重要事件是息息相关的，且大致上相关微博以中性情感为主，正向情感要高于负向情感。

情感判别框架

本文利用 CCIR 2020[2] 所发布的人工标注的微博情感极性数据集和fastText[3]框架训练了微博情感极性分类器，对本文所收集的新冠疫苗相关微博进行了情感极性分类，包含中性，正向和负向三种。

如论文[4]中所述fastText是一个能够有效的进行文本分类的深度学习框架，利用已标注数据进行训练，模型有能力对无标注的数据进行分类。以情感分类为例，fastText模型中，微博文本被处理为n-gram的特征，这些特征嵌入为向量且其平均值构成了隐藏层，然后通过分层式的softmax层给出情感分类的结果。通过上述的训练过程，fastText模型能够利用有情感极性标注的数据，通过输入特征与情感标注定义的目标函数，反向传播梯度，从而使模型对未标注数据有分类的能力。通过上述的训练与测试，本文对所收集的微博未标注数据进行了情感极性上的分类。

本文利用“情绪指数”来统计一段时间内的整体情感倾向，其计算的方法是：

（正向情感微博数-负向情感微博数）/（正向情感微博数+负向情感微博数）

整体情感倾向

新冠疫苗相关的情绪指数如图所示，该图以十天为单位进行了平滑。图中标注了部分有代表性的日期以及在微博上相应的热点讨论话题。

不同用户组的微博情感倾向

来自不同用户组的微博子集构成了整个新冠疫苗相关微博数据集，不同子集的微博也表现出不同的情感倾向。

女性用户的微博更可能展示出情感极性。比较男女性用户所发微博的情感倾向，由女性用户发出的微博更可能有正向或者负向的情感倾向。

青年用户的微博更可能展示出情感极性。比较不同年龄段用户所发微博的情感倾向，青年用户所发的微博占相对更多的比例，并且这些微博更有可能展示出正向或负向情感。

粉丝少的用户的微博更可能展示出极性情感。比较来自粉丝数量不同的用户所发微博的情感倾向，粉丝相对较少的用户更可能表现出情感极性，并且相对于粉丝更多的用户组的微博更偏向负向。

不同模式交互的微博情感极性的模式有所不同。大多数的微博集中在极少交互，甚至没有吸引到态度交互（例如点赞）、评论与转发。这些几乎无交互的微博的情绪指数是近似的。高交互的微博情感倾向与交互类型有关，在交互较多的微博集合上，相对而言之，转发的情绪指数较高，评论次之，态度交互再次之。

不同话题的微博情感倾向

中美情绪指数呈现相关性。比较提到中国、美国及中美均包含的微博，除中国与中美均包含外，其情绪指数展示出很强的相关性。在数量上，三者也展现了相关性。

例如美国制裁俄罗斯研究新冠疫苗的机构的新闻相关有相当数量微博显示了负向情感。整体而言，中国相关的微博的情绪指数相比另外两组微博更加正向。

“价格”:大多数关于价格的微博都是中性情感，显示出极性的情感的微博主要讨论新闻：新冠疫苗的价格是民众可接受的

“安全”:大多数关于安全的微博都是中性的以及部分偏向正向的。正向情感的微博讨论集中于陈薇院士团队研发出重组疫苗、非人灵长类动物实验结果公布、俄罗斯开展新冠疫苗接种以及新冠疫苗开始预约等。

“国产”:大多数关于国产的微博集中讨论的国产新冠疫苗亮相及预计上市时间等新闻。

“金融”:很多金融领域的微博博主参与了新冠疫苗相关的讨论。“国药”相关的新冠疫苗微博的数量及情绪与国药集团的收盘价呈现了一定的相关性。

讨论

本文通过统计现有微博及其相应的用户信息，给出了新冠疫苗相关的微博的整体情感倾向和特定用户群体所发微博的情感倾向。通过词云图可以展示更直观的用户讨论，如下图所示，展示了用户关注的出现频率比较高的一部分关键词。

https://www.pewresearch.org/science/2020/09/17/u-s-publicnow-divided-over-whether-to-get-covid-19-vaccine/

https://www.datafountain.cn/competitions/423/datasets

https://fasttext.cc

A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification

P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information

"Social media study of public opinions on potential COVID-19 vaccines: informing dissent, disparities, and dissemination" is available at https://doi.org/10.1016/j.imed.2021.08.001

qyangluo